Il presente documento è scritto in R Markdown. Markdown è una semplice sintassi di formattazione per la creazione di documenti HTML, PDF e MS Word. Questo documento è stato compilato usando Rstudio, il più diffuso IDE per R. Per maggiori dettagli sull’utilizzo di R Markdown, vedere http://rmarkdown.rstudio.com.
I dataset utilizzati provengono dalle banche dati Inps ed Istat, (open data e dataset pubblicati)
Per la scelta dei dati ho preso spunto da un report trovato sul vostro sito e dalla conoscenzad del settore.
I dati utilizzati non sono collegati al vostro studio ma hanno solo lo scopo di illustrare alcune possibilità di descrizione, analisi e visualizzazione dei dati tarmite R ed RStudio. Si tratta di dataset che presentano dati aggregati quindi non adatti per molti tipi di analisi. Il primo dataset preso in esame proviene dall’inps e contiene i dati sui Lavoratori in Italia per Territorio (Provincia e regione), classe di età, sesso posizione lavorativa e cittadinanza
La prima tabella è una descrizione ed un sommario del tipo di dati presenti nel dataset
| Name | ID_5651 |
| Number of rows | 215339 |
| Number of columns | 10 |
| _______________________ | |
| Column type frequency: | |
| character | 6 |
| numeric | 4 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| Regione | 0 | 1 | 5 | 28 | 0 | 21 | 0 |
| Provincia | 0 | 1 | 4 | 35 | 0 | 104 | 0 |
| Cittadinanza | 0 | 1 | 10 | 15 | 0 | 2 | 0 |
| Classe età | 0 | 1 | 7 | 11 | 0 | 11 | 0 |
| sesso | 0 | 1 | 6 | 7 | 0 | 2 | 0 |
| Posizione Prevalente | 0 | 1 | 9 | 26 | 0 | 9 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| Anno | 0 | 1 | 2016.49 | 1.70 | 2014 | 2015.0 | 2016 | 2018 | 2019 | ▇▅▅▃▃ |
| Lavoratori | 0 | 1 | 701.36 | 3044.94 | 1 | 12.0 | 85 | 393 | 114124 | ▇▁▁▁▁ |
| rr_cumulo_Sum | 0 | 1 | 15579198.86 | 93153397.03 | 0 | 77649.5 | 704278 | 5272842 | 5573101806 | ▇▁▁▁▁ |
| ss_cum_total_Sum | 0 | 1 | 29955.75 | 136415.71 | 1 | 332.0 | 2638 | 15118 | 5517162 | ▇▁▁▁▁ |
## Questi i valori unici per Posizione lavorativa
## [1] "Artigiano" "Autonomo agricolo"
## [3] "Commerciante" "Dipendente privato"
## [5] "Domestico" "Operaio agricolo"
## [7] "Parasubordinato" "Voucher/Lavoro occasionale"
## [9] "Dipendente pubblico"
nel primo grafico ho deciso di usare un boxplot per visualizzare il numero di lavoratori Comunitari ed Extracomunitari per posizione lavorativa nel 2019. I singoli data point sono gli aggregati per provincia, anno e sesso, vista la differenza anche notevole che può esserci fra province con grandi città e territorio scarsamente popolati ho trasformato i dati sull’asse delle x in logaritmi a base 10
## ### la tabella riporta lo stesso tipo di dati
## ### questa è una tabella più dettagliata dallo stesso dataset, è possibile ordinarla e filtrarla
nel dataset sono riportati i dati aggregati per territorio una modalità di visualizzazione può essere usata una treemap
Il grafico successivo mostra attraverso la mappa d’italia divisa per provincie la percentuale di lavoratori stranieri sul totale dei lavoratori per gli anni dal 2014 al 2019 questo tipo di visualizzazione rende immediatamente evidente la variazione del dato negli anni
###new dataset
Il secondo dataset l’ho creato unendo i dati sui tassi di occupazione, attività e disoccupazione scaricati dalle banche dati Istat
il primo grafico mette a confronto il tasso di occupazione e quello di attività per sesso cittadinanza e titolo di studio, i dati provengono da rilevazioni trimestrali dal 2016 al 2020 e sono riferiti a tutto il territorio nazionale
in questa sezione abbozzo un analisi inferenziale seguendo i tread individuati nei dati il primo grafico è un grafico a dispersione
## si possono notare i dati raggruppati in piccoli cluster, la forma dei punti sul grafico corrisponde ai diversi titoli di studio che soprattutto per gli italiani corrispondono grossolanamente ai cluster visibili
## la prima indicazione che possiamo trarne è che per entrambi i gruppi il titolo di studio sembra una variabile che determina una differenza rispette alle altre due
## la seconda indicazione evidente è che la retta di regressione lineare degli italiani è più in alto rispetto a quella degli starnieri segnalando che apparentemente a parità di titolo di studio gli italiani sono occupati in misura maggiore rispetto agli stranieri
proviamo a verificare questa assunzione visualizzando la distribuzione del rapporto fra tasso di occupazione (occupati/tot popolazione) e tasso di attività (forza lavoro/tot popalazione) la nuova variabile esprime il rapporto fra occupati e forza lavoro vediamolo nel dettaglio per titolo di studio, cittadinanza e sesso
il grafico sembra confermare la prima impressione ma nello stesso tempo mostra delle importanti differenze per titolo di studio, il rapporto sembra essere fortemente a vantaggio degli italiani per chi possiede un titolo di studio più alto mentre per i titoli più bassi o nessun titolo la situazione è invertita per verificare se la differenza fra i valori medi delle distribuzioni è statisticamente significativa esguiremo Il test t di Student per ogni gruppo di titolo di studio mettendo a confronto italiani e starnieri
## [1] "licenza di scuola elementare, nessun titolo di studio"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = -6.5697, df = 68.621, p-value = 8.101e-09
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.06620229 -0.03535930
## sample estimates:
## mean of x mean of y
## 0.7768056 0.8275864
##
## [1] "licenza di scuola media"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 0.61011, df = 75.813, p-value = 0.5436
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.008672599 0.016331890
## sample estimates:
## mean of x mean of y
## 0.8520506 0.8482210
##
## [1] "diploma"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 7.9855, df = 65.485, p-value = 2.954e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.03121369 0.05202940
## sample estimates:
## mean of x mean of y
## 0.9012849 0.8596634
##
## [1] "laurea e post-laurea"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 8.389, df = 46.604, p-value = 7.185e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.04012501 0.06544758
## sample estimates:
## mean of x mean of y
## 0.9427899 0.8900036
Il test conferma per 3 gruppi su 4 che la differenza è significativa, ovvero essere italiano o straniero fa la differenza
proviamo infine a visualizzare il tasso di disoccupazione nel tempo rispetto alle due popolazioni considerate finora, sempre per titolo di studio
boxplot
infine allego due immagini tratti da lavori fatti come esempio sulle possibilità di utilizzo delle reti per visualizzazioni e soprattutto analisi
network test autismo2
network VCG Liver